25 research outputs found

    A Study on Ranking Method in Retrieving Web Pages Based on Content and Link Analysis: Combination of Fourier Domain Scoring and Pagerank Scoring

    Get PDF
    Ranking module is an important component of search process which sorts through relevant pages. Since collection of Web pages has additional information inherent in the hyperlink structure of the Web, it can be represented as link score and then combined with the usual information retrieval techniques of content score. In this paper we report our studies about ranking score of Web pages combined from link analysis, PageRank Scoring, and content analysis, Fourier Domain Scoring. Our experiments use collection of Web pages relate to Statistic subject from Wikipedia with objectives to check correctness and performance evaluation of combination ranking method. Evaluation of PageRank Scoring show that the highest score does not always relate to Statistic. Since the links within Wikipedia articles exists so that users are always one click away from more information on any point that has a link attached, it it possible that unrelated topics to Statistic are most likely frequently mentioned in the collection. While the combination method show link score which is given proportional weight to content score of Web pages does effect the retrieval results

    Reduksi Dimensi Fitur Menggunakan Algoritma Aloft Untuk Pengelompokan Dokumen

    Full text link
    Pengelompokan dokumen masih memiliki tantangan dimana semakin besar dokumen maka akan menghasilkan fitur yang semakin banyak. Sehingga berdampak pada tingginya dimensi dan dapat menyebabkan performa yang buruk terhadap algoritma clustering. Cara untuk mengatasi masalah ini adalah dengan reduksi dimensi. Metode reduksi dimensi seperti seleksi fitur dengan metode filter telah digunakan untuk pengelompokan dokumen. Akan tetapi metode filter sangat tergantung pada masukan pengguna untuk memilih sejumlah n fitur teratas dari keseluruhan dokumen. Algoritma ALOFT (At Least One FeaTure) dapat menghasilkan sejumlah set fitur secara otomatis tanpa adanya parameter masukan dari pengguna. Karena sebelumnya algoritma ALOFT digunakan pada klasifikasi dokumen, metode filter yang digunakan pada algoritma ALOFT membutuhkan adanya label pada kelas sehingga metode filter tersebut tidak dapat digunakan untuk pengelompokan dokumen. Pada penelitian ini diusulkan metode reduksi dimensi fitur dengan menggunakan variasi metode filter pada algoritma ALOFT untuk pengelompokan dokumen. Sebelum dilakukan proses reduksi dimensi langkah pertama yang harus dilakukan adalah tahap preprocessing kemudian dilakukan perhitungan bobot tfidf. Proses reduksi dimensi dilakukan dengan menggunakan metode filter seperti Document Frequency (DF), Term Contribution (TC), Term Variance Quality (TVQ), Term Variance (TV), Mean Absolute Difference (MAD), Mean Median (MM), dan Arithmetic Mean Geometric Mean (AMGM). Selanjutnya himpunan fitur akhir dipilih dengan algoritma ALOFT. Tahap terakhir adalah pengelompokan dokumen menggunakan dua metode clustering yang berbeda yaitu k-means dan Hierarchical Agglomerative Clustering (HAC). Dari hasil ujicoba didapatkan bahwa kualitas cluster yang dihasilkan oleh metode usulan dengan menggunakan algoritma k-means mampu memperbaiki hasil dari metode VR

    Deteksi Gempa Berdasarkan Data Twitter Menggunakan Decision Tree, Random Forest, dan SVM

    Full text link
    Twitter merupakan salah satu media sosial yang cukup populer saat ini. Pengguna aktif Twitter mencapai kurang lebih 400 juta orang. Fitur utama yang paling penting dari Twitter yaitu layanan yang bersifat real-time dimana pengguna dapat menuliskan catatan singkat tentang apa yang terjadi secara langsung. Sebagai contoh, ketika terjadi bencana alam(gempa bumi) di suatu tempat, banyak pengguna aktif twitter menulis informasi berupa (tweet) tentang gempa bumi yang sedang berlangsung melalui Twitter. Hal ini memungkinkan dibuatnya sebuah metode yang mendeteksi terjadinya gempa atau tidak dengan melakukan observasi melalui tweet yang ada. Dalam tugas akhir ini dibuat sebuah metode klasifikasi untuk membedakan antara tweet yang mengandung informasi gempa yang sesungguhnya (gempa positif) dan tweet yang mengandung informasi gempa namun memiliki arti lain (gempa negatif). Setelah dilakukan klasifikasi menggunakan Decision Tree, Random Forest dan Support Vector Machine (SVM). Hasil yang didapat memberikan nilai akurasi Support Vector Machine (SVM) secara keseluruhan lebih baik daripada Decision Tree dan Random Forest dengan persentase gempa yang dideteksi oleh sistem (Recall) didapatkan nilai 86.3%.dengan precision sebesar 88.7%. Namun jika dilihat dari terdeteksinya gempa oleh sistem tanpa dirata-rata, Random Forest memiliki persentase recall sebesar 96.7% lebih baik daripada Decision Tree dan Random Forest

    Rancang Bangun Aplikasi Pengambilan Berita Secara Otomatis Menggunakan Content Syndication Berbasis Xml Dengan Platform Microsoft .Net

    Get PDF
    Banyaknya kebutuhan akan informasi di internet menyebabkan penyedia jasa situs berita untuk memberikan berita yang selalu yang terbaru. Salah satu alternatif solusi adalah dengan melakukan content syndication. Content syndication adalah adalah proses dimana suatu isi berita dikirimkan atau disediakan, biasanya dengan biaya tertentu, dari penyedia berita, biasanya disebut originators, ke pasar yang membutuhkan atau subscribers. RSS (Rich Site Summary) adalah format yang secara umum digunakan untuk melakukannya. RSS pada dasarnya adalah suatu file yang berada di suatu situs, yang menyediakan informasi tentang isi dari situs tersebut. File tersebut biasa disebut sebagai RSS Feeds dan dapat di ambil dan diolah untuk mendapatkan informasi tentang isi situs tersebut. Dibuat sebuah aplikasi untuk pengambilan situs berita secara otomatis menggunakan content syndication yang memerlukan aplikasi pada proses background untuk mengambil RSS Feeds secara berkala pada komputer yang berfungsi sebagai server. Server yang mengambil berita dari situs penyedia terdiri dari aplikasi yang mengatur konfigurasi berita tersebut, dan sebuah windows service untuk mengambil RSS feeds kemudian mengolahnya secara otomatis. Sedangkan aplikasi untuk membaca berita dari RSS server terdapat pada client berupa sebuah komponen plug-in. Uji coba pertama dilakukan dengan menguji keberhasilan aplikasi dalam mengatur konfigurasi skema, atribut tabel, dan pengaturan kategori situs penyedia RSS. Sedangkan ujicoba kedua dilakukan dengan melakukan perbandingan hasil pencarian berita yang didapat dari program dengan berita dari situs lain yang tidak menerapkan content syndication. Dari hasil pengujian diketahui bahwa aplikasi dengan content syndication mampu melakukan pencarian berita dan memberikan hasil yang lebih baik

    Multi-document Summarization Based on Sentence Clustering Improved Using Topic Words

    Full text link
    Informasi dalam bentuk teks berita telah menjadi salah satu komoditas yang paling penting dalam era informasi ini. Ada banyak berita yang dihasilkan sehari-hari, tetapi berita-berita ini sering memberikan konten kontekstual yang sama dengan narasi berbeda. Oleh karena itu, diperlukan metode untuk mengumpulkan informasi ini ke dalam ringkasan sederhana. Di antara sejumlah subtugas yang terlibat dalam peringkasan multi-dokumen termasuk ekstraksi kalimat, deteksi topik, ekstraksi kalimat representatif, dan kalimat rep-resentatif. Dalam tulisan ini, kami mengusulkan metode baru untuk merepresentasikan kalimat ber-dasarkan kata kunci dari topic teks menggunakan Latent Dirichlet Allocation (LDA). Metode ini terdiri dari tiga langkah dasar. Pertama, kami mengelompokkan kalimat di set dokumen menggunakan kesamaan histogram pengelompokan (SHC). Selanjutnya, peringkat cluster menggunakan klaster penting. Terakhir, kalimat perwakilan yang dipilih oleh topik diidentifikasi pada LDA. Metode yang diusulkan diuji pada dataset DUC2004. Hasil penelitian menunjukkan rata-rata 0,3419 dan 0,0766 untuk ROUGE-1 dan ROUGE-2, masing-masing. Selain itu, dari pembaca prespective, metode kami diusulkan menyajikan pengaturan yang koheren dan baik dalam memesan kalimat representatif, sehingga dapat mempermudah pemahaman bacaan dan mengurangi waktu yang dibutuhkan untuk membaca ringkasan

    Pemilihan Kombinasi Produk Kosmetika Menggunakan Algoritma Genetika

    Get PDF
    Pemilihan serangkaian produk kosmetik merupakan permasalahan kombinasi sebab seorang konsumen dapat memilih beberapa jenis produk. Pada pemilihan produk kosmetik akan melibatkan data berjumlah besar dengan setiap paket kosmetik merupakan kombinasi dari beragam produk yang terdapat di pasar. Algoritma genetika mampu melakukan optimasi terhadap permasalahan kombinasi yang melibatkan data berjumlah besar.Solusi-solusi dari pemilihan produk berupa paket-paket produk direpresentasikan dalam string-string biner. Satu string biner mewakili satu paket produk dengan setiap satu segmen terdiri dari beberapa bit merupakan representasi dari sebuah produk. Dilakukan tukar silang yang telah dimodifikasi dengan menentukan titik-titik yang akan dipilih sebagai titik tukar silang sejak pembentukan kromosom. Situasi kromosom yang tidak terdapat dalam database karena proses rekombinasi diatasi dengan dilakukan koreksi mutasi. Kromosom legal diterjemahkan dengan mengambil data-data berupa fitur-fitur produk, nama dan harga produk dari database. Data-data tersebut digunakan untuk melakukan perhitungan nilai fitness total yang bergantung pada rata-rata fitness produk dalam kromosom dan kesesuaian total harga produk dengan anggaran pengguna.Hasil pengujian menunjukkan apabila tanpa operator mutasi maka semakin besar tingkat tukar silang yang digunakan, jumlah generasi yang dibutuhkan untuk mencapai suatu nilai tertentu cenderung berkurang. Namun pada pemilihan produk, nilai fitness terbaik dihasilkan dengan pemakaian mutasi yaitu pada tingkat mutasi 0.09 dan tingkat tukar silang 0.7. Pemilihan metode tukar silang dua titik yang telah dimodifikasi pada pengujian tidak cukup baik hasilnya dibandingkan dengan tukar silang satu titik

    Pengkategorian Isi Berita Berbahasa Indonesia Menggunakan Algoritma Symbolic Rule Induction Berbasis Decision Tree

    Get PDF
    Pengkategorian teks sangat penting demi manajemen dan temu kembali pengetahuan yang ada pada teks tersebut. Pengkategorian teks yang dilakukan secara manual akan menghabiskan banyak waktu dan biaya. Karena itu diperlukan suatu sistem yang mampu mengkategorikan teks secara otomatis. Penelitian ini berusaha untuk mengkategorikan teks dengan menggunakan algoritma symbolic rule induction berbasis decision tree. Pengkategorian dilakukan untuk berita berbahasa Indonesia. Dari teks berita tersebut, dipilih fitur-fitur yang relevan untuk masing-masing kategori berdasarkan kriteria Information Gain. Dengan menggunakan fitur-fitur tersebut, dibangun decision tree melalui proses induksi. Untuk meningkatkan akurasi decision tree dilakukan proses pruning. Proses selanjutnya adalah menghasilkan aturan-aturan yang ekivalen secara logis dengan decision tree tersebut dengan memanfaatkan sibling criterion. Algoritma ini diuji coba dengan menggunakan data berita dari situs Detik. Uji coba dilakukan untuk mengetahui pengaruh dari jumlah fitur, jumlah data, dan nilai maksimum suatu fitur terhadap nilai F1 dan waktu komputasi. Hasil uji coba menunjukkan bahwa jumlah fitur dan jumlah data pelatihan yang bertambah cenderung akan meningkatkan nilai F1

    Pengembangan Sistem Pengenalan Wajah Dengan Metode Pengklasifikasian Hibrid Berbasis Jaringan Fungsi Basis Radial Dan Pohon Keputusan Induktif

    Full text link
    Face recognition is a difficult task mostly because of the inherent variability of the image formation process ranging from the position/cropping of the face and its environment (distance and illumination) is totally controlled, to those involving little or no control over the background and viewpoint. Moreover, those are allowing for major changes in facial appearance due to factors expression, aging, and accessories such as glasses or changes in hairstyle. A solution has been proposed by considering hybrid classification architectures deal with the benefit of robustness via consensus provided by ensembles of Radial Basis Functions (RBF) networks and categorical classification using decision trees. A specific approach considers an ensemble of RBF Networks through its ability to cope with variability in the image formation. The experiments were carried out on images drawn randomly 50 unique subjects totalling to 500 facial images with rotation ± 50 encoded in greyscale. The faces are then normalized to account for geometrical and illumination changes using information about the eye location. Specifically performance true positive by Ensambles RBF1 (ERBF1) increased on ± 13,86% measures up to RBF while ERBF2 by ± 15,93%. On the contrary the false negative rate decreased by amount of ±5,8% for ERBF1 and somewhat less to ±5,6% for ERBF2. When the connectionist ERBF model is coupled with an Inductive Decision Tree - C4.5 - the performance improves over the case while only the connectionist ERBF module is used
    corecore